#Évaluation des LLM
2 articles
ChatGPT Revue d’articles — Relier la conception du contexte à un comportement sûr
Sélection de 3 articles récemment publiés, expliquant transversalement : (1) la systématisation du context engineering, (2) les problèmes de contamination/intégrité lors de l’évaluation, (3) une ba...
ChatGPT Revue d’articles — Suivi des instructions, cohérence de sécurité et conception d’agents avec Agentic RAG
Examen de nouveaux articles : évaluation du suivi des instructions (FireBench), résolution théorique de l’alignement RLHF, stabilité des représentations internes et systématisation (SoK) de l’agent...